ارائه یک روش جدید یادگیری تقویتی پیوسته با تاکید بر تحلیل ریاضی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر
- نویسنده فرزانه قربانی
- استاد راهنما ولی درهمی حسین نظام آبادی پور
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1392
چکیده
یکی از چالش های یادگیری تقویتی، عدم وجود الگوریتم های قابل اجرا در فضای حالت و عمل پیوسته است که دارای استدلال ریاضی باشند. در این پایان نامه سعی داریم با ارائه یک روش جدید یادگیری تقویتی پیوسته مبتنی بر معماری نقاد-تنها برای مسائل کنترل این چالش ها را برطرف کنیم. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات" با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده می شود. هر قاعده سیستم فازی داری چند تالی کاندید می باشد. هدف از آموزش، یافتن مناسب ترین تالی برای هر قاعده فازی است. با توجه به ساختاری که برای سیستم فازی در نظر گرفته شده است، این روش در زمره روش های یادگیری تقویتی فازی نقاد-تنها قرار دارد. توابع پایه حالت-عمل با توجه به شدت آتش و عملهای کاندید قواعد تعریف می شوند. روش تازه سازی پارامترهای وزن مربوط به تالی قواعد با استفاده از این توابع پایه و بهره گیری از الگوریتم تکرار سیاست کمترین مربعات، ارائه می شود. نشان داده می شود که توابع پایه حالت–عمل تعریف شده شرایط قضیه روش تکرار سیاست کمترین مربعات را برآورده می نمایند. لذا روش ارائه شده هم دارای تحلیل ریاضی است که به این وسیله یک کران خطا برای آن تعریف می شود و هم کارایی مناسبی دارد. نتایج شبیه سازی، حاکی از سرعت یادگیری بالاتر و نیز کیفیت عملکرد بهترِ روش تکرار سیاست کمترین مربعات فازی نسبت به دو روش مرتبط یادگیری کیوی فازی و یادگیری سارسای فازی می باشد. همچنین مزیت دیگر روش ارائه شده نسبت روش های مذکور، عدم نیاز به تعیین نرخ یادگیری است.
منابع مشابه
یک روش ترکیبی جدید یادگیری تقویتی فازی
در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه میشود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته میشود. هدف، یافتن مناسبترین عمل نامزد (تالی) برای هر قاعده میباشد. با استفاده از بردار شدت آتش قواعد فازی و ...
متن کاملیک روش چند عاملی جدید مبتنی بر یادگیری تقویتی برای شکلدهی ترافیک و تخصیص حافظه بافر در روترها
Normal 0 false false false EN-US X-NONE AR-SA MicrosoftInternetExplorer4 ...
متن کاملارائه یک الگوریتم جدید برای پارک موازی خودرو مبتنی بر طراحی مسیر با انحنای پیوسته کلوتوئید
یکی از دستاوردهای صنعت خودرو در سالهای اخیر اضافه نمودن سیستم انجام پارک خودوند خودرو میباشد که این سیستم میتواند بدون دخالت یا با راهنمایی انسان خودرو را در محل مورد نظر پارک نماید. در این مقاله با ارایه یک الگوریتم جدید سعی شده تا با استفاده از خواص منحنی کلوتوئید، مسیر قابل پیمایشی برای حرکت خودرو به سمت جایگاه پارک طراحی شود. حرکت خودرو در این مسیرِ هموار به صورت پیوسته، با سرعت ثابت و ای...
متن کاملتوسعه کنترلر هوشمند چراغهای راهنمایی بر پایه یادگیری تقویتی حالت پیوسته در محیط ترافیکی میکروسکوپیک
افزایش روزافزون تعداد خودروها و در پی آن ترافیکهای سنگین شهری چالش بزرگی را برای کنترل بهینه ترافیک شهری برای مهندسین ایجاد کرده است. روش مناسب برای کنترل بهینه ترافیک هرچه باشد یقیناً باید وفق پذیر بوده تا بتواند ترافیک شهری را که دارای طبیعت پویا، پیچیده و تغییرپذیر است را بهخوبی مدیریت نماید. در این راستا تمرکز اصلی تحقیق حاضر کنترل هوشمند و توزیع یافته چراغهای راهنمایی بر پایه یادگیری تقو...
متن کاملارائه یک مبدل دو طرفه ایزوله جدید با جریان خروجی پیوسته
در این مقاله یک مبدل دو طرفه جدید ایزوله ارائه شده است. این مبدل از دو ترانسفورمر فوروارد و فلای بک تشکیل گردیده و تنها یک سوییچ در طرف اولیه و یک سوییچ در طرف ثانویه ترانسفورمر دارد. این مبدل به صورت PWM کنترل میگردد و از آنجایی که در هر دو حالت خاموش و روشن بودن سوییچها توان به خروجی منتقل میگردد، چگالی توان آن نسبت به مبدلهای قبلی بالاتر است. از طرفی مبدل مذکور قادر است که از هر دو طرف به ...
متن کاملارائه یک مبدل دو طرفه ایزوله جدید با جریان خروجی پیوسته
در این مقاله یک مبدل دو طرفه جدید ایزوله ارائه شده است. این مبدل از دو ترانسفورمر فوروارد و فلای بک تشکیل گردیده و تنها یک سوییچ در طرف اولیه و یک سوییچ در طرف ثانویه ترانسفورمر دارد. این مبدل به صورت PWM کنترل میگردد و از آنجایی که در هر دو حالت خاموش و روشن بودن سوییچها توان به خروجی منتقل میگردد، چگالی توان آن نسبت به مبدلهای قبلی بالاتر است. از طرفی مبدل مذکور قادر است که از هر دو طرف به ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023